استخراج پیکره موازی از اسناد قابل مقایسه برای بهبود کیفیت ترجمه در سیستم های ترجمه ماشینی

نویسندگان

زینب رحیمی

zeinab rahimi no 12,bishe alley, north sohrevardi avenue,tehran,iranتهران-خیابان سهروردی شمالی-بنبست بیشه-پلاک 12-پژوهشکده هوشمند علائم محمدحسین ثمنی

mohammad hossein samani no 12,bishe alley, north sohrevardi avenue,tehran,iranتهران-خیابان سهروردی شمالی-بنبست بیشه-پلاک 12-پژوهشکده هوشمند علائم شهرام خدیوی

shahram khadivi hafez avenu,tehran,iranتهران-خیابان حافظ-دانشگاه صنعتی امیرکبیر-دانشکده مهندسی کامپیوتر

چکیده

امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشم گیری افزایش یافته است. یکی از مطرح ترین روش های ترجمه ماشینی، روش آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده می شود؛ اما در برخی زبان ها هنوز مسئله نیاز پایه ای سیستم ترجمه ماشینی آماری یعنی پیکره های متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی برای بهبود کیفیت پیکره های مستخرج از اسناد قابل مقایسه و در نتیجه بهبود کیفیت سیستم ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه داده های موازی نه به صورت جمله، بلکه به صورت قطعات زیرجمله ای ظاهر می شوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعه ای از ویژگی ها دارد که این ویژگی ها عبارت اند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیل دهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابی های انجام شده روش پیشنهادی دارای کارایی مناسبی است و علاوه بر اینکه از نظر دقت و بازخوانی از روش های موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی بخشی از پیکره قابل مقایسه موجود، کارایی سیستم ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 0.33 تا 1.4 واحد بلو افزایش داده است.

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی

Data used for training statistical machine translation method are usually prepared from three resources: parallel, non-parallel and comparable text corpora. Parallel corpora are an ideal resource for translation but due to lack of these kinds of texts, non-parallel and comparable corpora are used either for parallel text extraction. Most of existing methods for exploiting comparable corpora loo...

متن کامل

نگرشی بر ترجمه ماشینی

از دیر باز بشر همیشه در آرزوی اختراع دستگاهی بوده است که بتواند متون را از زبان مبداء به زبان مقصد با سرعت و دقت فراوان ترجمه کند. تلاش برای رسیدن به این آرزو بیش از پنج دهه است که آغاز شده است و محققان دسا اوردهایی در زمینه طراحی سیستم ها و ساخت ماشین های مترجم بدست آورده اند ولی نام ماشینهای مترجم همواره مفهوم منفی را در ذهن افراد تداعی می کند و بیشتر مترجمان و محققان نظر منفی درباره ماشینهای...

متن کامل

تجزیه و تحلیل اصطلاحات برای استفاده در ترجمه ماشینی

متن کامل

مقایسه و بررسی برخی نظام‌های ترجمه ماشینی روسی و غربی

نظام‌های ترجمة ماشینی برتر دنیا قادرند کتابی هزار صفحه‌ای را در کمتر از 2 دقیقه ترجمه کنند، کاری که مترجم زبده و حرفه‌ای حداقل یک سال وقت روی آن صرف می‌کند. منتقدان، به کیفیت ترجمة این نظام‌ها ایراداتی دارند، با این حال روند ترجمة ماشینی به سرعت رو به رشد است و باید به یاد داشت، ترجمه در نوع سنتی (انسانی) نیز رشد خود را در طی قرن‌ها به دست آورده است و اکنون نیز این‌گونه ترجمه‌ها بدون نقص نیستند...

متن کامل

گروه اعداد در ترجمه ماشینی

هدف از عرضه گروه اعداد، ساختن ترکیبات مجاز از اعداد اصلی و ترتیبی در زبان فارسی است. در این مقاله سی و هشت عضو دستگاه عددگویی فارسی در چهارگروه چندعضوی و دو گروه تک عضوی قرار داده شده اند. سی و هشت عضو مذکور در دو دسته قاعده کلی (یعنی قواعد گروه اعداد اصلی و اعداد ترتیبی) جای داده شده اند. تعداد قواعد اعداد اصلی شامل چهل و هفت، و تعداد قواعد اعداد ترتیبی (که خود بر دو نوع اند) شامل چهار قاعده ا...

متن کامل

ابهام زدایی واژگانی صفات مبهم در ترجمه ماشینی: بررسی پیکره بنیاد

موضوع ابهام در معانی واژه ها و ساختار ها و چگونگی برطرف کردن آن به ویژه به هنگام ترجمه ماشینی ذهن بسیاری از محققان را در این حوزه به خود مشغول داشته و برای آن راهکار های گوناگونی ارائه شده است. در این مقاله بر آنیم تا به ابهام موجود در واژه ها بپردازیم.صفات و نامهای مبهم با تعدد معانی خود دشواریهایی را در ترجمه ماشینی بوجود می آورند . در برنامه های خودکار که اراده انسانی در انتخاب معادل دخالتی ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

عنوان ژورنال:

پردازش علائم و داده ها

جلد ۱۲، شماره ۲، صفحات ۵۵-۷۲

کلمات کلیدی

پیکره قابل مقایسه استخراج قطعات موازی پیکره موازی ترجمه ماشینی

میزبانی شده توسط پلتفرم ابری doprax.com